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Особливості інтелектуальних методів 
кластеризації у реляційних базах даних 


У статті досліджується методика проведення кластерного аналізу у реляційних базах даних на основі 
функціонального програмування. Описано функції на основі рекурентних нейронних мереж та 
самоорганізованих карт Коханена для проведення кластерного аналізу. 


Сучасні досягнення в інформаційних технологіях конкретизуються у практично- 
му їх втіленні, що підтверджує прикладне значення і застосування штучного інтелекту. 
Прогрес у технологічних засобах очевидний. Проте є ряд проблем, які потребують 
детальнішого аналізу та уточнення, що обумовлено їх практичним використанням. 
До сфери таких проблем можна віднести використання інтелектуальних методів клас- 
теризації даних у інформаційних системах. 

Проблеми кластерного аналізу розглянуто у Манделя (11, |2|. Ці дослідження 
переважно теоретичного характеру, а саме: містять прикладне значення кластеризації 
даних, основні алгоритми проведення кластеризації. 

Інтелектуальні методи обчислень набули розвитку в сучасній науковій думці, зок- 
рема у працях |3|, 141. Основою таких обчислень є нейронні мережі, генетичні алго- 
ритми та інші методи. 

Окремі дослідження у методах обробки реляційних баз даних є, але їх практич- 
не застосування не має системного характеру. У розвитку сучасних інформаційних 
систем спостерігається активний пошук нових методів обробки баз даних, тому що в 
основі кожної інформаційної системи присутня реляційна база даних. 

Класифікація об'єктів по осмислених групах - кластеризація - є важливою проце- 
дурою у сфері економічних, соціологічних, психологічних досліджень і фундаменталь- 
ним процесом наукової практики, тому що системи класифікацій містять поняття, 
необхідні для розробки теорій у науці. Отже, метою даного дослідження є пошук та 
аналіз методів обробки даних у реляційних базах даних. Це полегшить звичайним ко- 
ристувачам використання потужних інтелектуальних методів обробки даних. 

Кластерний аналіз - загальна назва множини обчислювальних процедур, які ви- 
користовуються при створенні класифікації. У результаті роботи з процедурами утво- 
рюються «кластери» або групи дуже подібних об'єктів. Більш точно, кластерний метод -- 
багатомірна статистична процедура, яка виконує збір даних, які містять інформацію 
про вибірку об'єктів, а після - упорядковуює об'єкти у порівняно однорідні групи. 

Кількісна оцінка подібності побудована на понятті метрики. При цьому підході 
кожен об'єкт множини позначається точками координатного простору, при цьому по- 
мічені подібності і відмінності між точками знаходяться у відповідності з метрични- 
ми відстанями між ними. Розмірність простору визначається кількістю змінних, які 
використовуються для опису подій. 

Використовують такі стандартні властивості критеріїв, яким повинні відповідати 
міри подібності, щоб бути метрикою: 

- симетрія; 
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- нерівність трикутника; 
- відмінність неоднакових об'єктів; 
- відсутність відмінностей ідентичних об'єктів. 
Найбільш широковживаними функціями відстаней між об'єктами є: 
- евклідова відстань: 


р 
ф(Х,КЮ)ЗГУ (хичхь 15 (1) 
Каї 
- Ір-норма: 
р 
а (хК)З1У, Іхи-хьі| (2) 
Каї 
- супремум-норма: 
Фо (Хео3/ Зоря |за 115 КЗ 12, З, мк; (3) 
- ір- норма: 
р 
ф(Х,Х)зГУ Іхи ху Р) (9) 
Каї 
- віддаль Махаланобіса: 
р (ХХ) З (ХХ М" (ХХ). (5) 


Проблема вимірювання близькості об'єктів постійно виникає при будь-яких тлу- 
маченнях кластерів та різних методах класифікації. Основними труднощами при цьому 
є неоднозначність вибору способу нормування і знаходження віддалі між об'єктами. 

Незважаючи на важливість евклідової та інших метрик, вони мають значні не- 
доліки, з яких найбільш суттєвий полягає у тому, що оцінка подібності дуже залежить 
від відмінностей у зсувах даних. Змінні, у яких наявні одночасно великі абсолютні зна- 
чення і стандартні відхилення, можуть подавити вплив змінних з меншими абсолютними 
значеннями та стандартними відхиленнями. Більш того, метричні відстані змінюються 
під дією перетворення шкали вимірювання змінних, при яких не зберігається ранжуван- 
ня за евклідовою віддаллю. 

Вибір змінних у кластерному аналізі є одним з найбільш важливих кроків у про- 
цесі дослідження, але і одним з найменш розроблених. Основна проблема полягає у 
тому, щоб знайти ту сукупність змінних, яка оптимальним чином відображає понят- 
тя подібності та описує об'єкти. В ідеалі змінні повинні вибиратися у відповідності з 
чітко сформульованою теорією, яка лежить в основі класифікації. В інформаційних сис- 
темах такими змінними є властивості об'єктів. Вони можуть мати як кількісне, так і 
якісне значення. Тому при проведенні обчислень виникає необхідність перетворення 
якісних даних у числові. 

Також у більшості видів аналізу дані, звичайно, підлягають нормуванню певним 
способом. У тому випадку якщо дані виміряні у різних масштабах, нормування, зви- 
чайно, проводиться таким чином, щоб середнє арифметичне дорівнювало нулю, а дис- 
персія - одиниці. 

Нормування являє собою перехід до певного однозначного опису для всіх ознак, 
до введення нової умовної одиниці вимірювання, яка допускає формальне співстав- 
лення об'єктів. Такі процедури у реляційних базах даних можна проводити за допомо- 
гою підсумкових операцій, декартового добутку та обчислень на основі функціональ- 
ного програмування. Найбільш поширеним способом нормування властивостей є: 

- обчислення підсумковою функцією середнього арифметичного х; 
- обчислення підсумковою функцією середньоквадратичного відхилення |; 
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- обчислення підсумковою функцією максимального значення Хурх; 

- обчислення підсумковою функцією мінімального значення Х/урл) 

- проведення операції декартового множення з відношеннями даних, максимально- 

го, мінімального, середнього арифметичного значення і середньоквадратичного від- 

хилення; 

-- знаходження нормованого значення за допомогою функції нормування: х' -(х- х)/ 
га нь, ре Хівін 

Такий підхід забезпечує просту та зручну організацію додаткових засобів оброб- 
ки інформації у готових базах даних. 

Незважаючи на відсутність чіткого означення, кластери володіють деякими влас- 
тивостями, найважливішими з яких є густина, дисперсія, розміри, форма і відокрем- 
леність. 

Основні кластерні методи можна поділити на такі групи: 

- ієрархічні агломеративні методи; 

- ієрархічні дивизімні методи; 

- ітеративні методи групування; 

-- методи пошуку модальних значень густини; 
- факторні методи; 

- методи згущень; 

- методи, які використовують теорію графів. 

Ці групи методів відповідають різним підходам до створення кластерів, і вико- 
ристання різних методів до одних і тих же даних може привести до суттєво відмін- 
них результатів. У конкретних галузях науки найчастіше застосовують характерні групи 
методов кластеризації. Так, ієрархічні агломеративні методи частіше за все викорис- 
товуються у біології, тоді як факторні аналітичні методи з великим успіхом викорис- 
товуються у психології. При виборі методу кластеризації необхідно враховувати від- 
повідність цього методу до очікуваного характеру класифікації, використаних ознак 
і міри подібності. Найбільш відомими групами кластерних методів, які використовую- 
ться у соціальних науках, є ієрархічні агломеративні, ієрархічні дивизімні і факторні. 

Основними причинами розробки та використання спеціальних методів статистич- 
ного аналізу багатомірних даних є необхідність розуміння закономірностей функціо- 
нування недостатньо вивчених складних соціально-економічних процесів і явищ, а 
також використаннях цих методів як інструменту управління, який призначений для 
аналізу багатомірних реальних, швидкозмінних ситуацій. Основою сучасних інформа- 
ційних систем управління є реляційні бази даних. 

При обробці реляційних баз даних необхідно враховувати методику зберігання 
та доступу до інформації у них. Вона полягає у відокремленості записів у відношенні 
і проведенні обчислень поступово за кожним записом. Такі обмеження вимагають про- 
ведення пошуку специфічних методів обробки. Тобто з одного боку - простий метод 
доступу до даних у відношеннях, з іншого - обмеженість у використанні даних з різ- 
них записів відношення. Перераховані вище методи кластеризації вимагають одночас- 
ного порівняння кількох об'єктів. 

У звязку з відсутністю залежностей між записами реляційних баз даних та об- 
меженістю операцій реляційної алгебри сукупний аналіз інформації повинен бути за- 
безпечений функцією проведення кластеризації. 

Одним із перспективних методів є використання функціонального програмуван- 
ня. Суть його полягає у проведенні обчислень на основі тільки функцій (5|. У даному 
випадку аргументами функції є значення полів. 
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Найпростішими функціями пошуку кластера можуть бути функції, які містять 
дані про центр розміщення кластера та його форму. Послідовний підхід у побудові ал- 
горитму кластеризації полягає в явному формулюванні певного цільового функціо- 
нала якості з наступною його мінімізацією. Найпростішим функціоналом якості є су- 
марна віддаль по всіх зразках до кожного об'єкта до центра найближчого від нього 
кластера у вибраній метриці. Цей функціонал можна визначити для умови, коли число 
кластерів відомо наперед. Змінними пошуку є координати центрів кластерів. Мінімі- 
зація функціонала якості повинна проводитися за всіма можливими перестановками 
об'єктів по кластерах. Це і визначає фундаментальну складність задачі кластеризації. 

Більш потужні функції кластеризації можна побудувати на основі нейронних ме- 
реж. Для розв'язування будь-якої задачі з використанням штучних нейронних мереж 
необхідно спочатку зпроектувати структуру мережі, адекватну поставленій задачі. Це 
передбачає вибір кількості шарів мережі і нейронів у кожному шарі, а також визна- 
чення необхідних зв'язків між шарами. 

Підбір кількості нейронів у вхідному шарі обумовлений розмірністю вхідного век- 
тора, у даному випадку - кількістю полів відношення. Подібна ситуація із вихідним 
шаром: у випадку з кластеризацією це, як правило, одне значення. Складним питан- 
ням залишається підбір кількості прихованих шарів 1 кількості нейронів у кожному з 
них. Теоретичний розв'язок цієї задачі у сенсі умови достатності був запропонований 
математиками, які вивчають апроксимацію функцій декількох змінних. 

У досліджуваному напрямку варто звернути увагу на окрему групу нейронних 
мереж зі зворотнім зв'язком між різними шарами нейронів. Це - так звані рекурентні 
мережі. Їх загальна ознака полягає у передачі сигналів із вихідного, або схованого, ша- 
ру у вхідний шар. 

Основна особливість, яка виділяє ці мережі серед інших нейронних мереж, - 
динамічна залежність на кожному етапі функціонування. Зміна стану одного нейрона 
відображається на всій мережі внаслідок зворотнього зв'язку типу «один до багатьох». 
У мережі виникає певний перехідний процес, який завершується формуванням стійко- 
го стану, який відрізняється у загальному випадку від попереднього. Ці стани можна 
позначати кластерами, які відповідають таким множинам об'єктів. 

Якщо функцію активації нейрона позначити Ци), де и - це зважена сума його збу- 


М 
дження, то стан нейрона можна визначити вихідним сигналом у; - /(ид - /( ЖЕ ад 
1ч1 


Беручи до уваги те, що при зворотньому зв'язку типу «один до багатьох» роль 
збуджених імпульсів для нейрона відіграють вихідні сигнали інших нейронів, зміну 
його стану можна описати системою диференціальних нелінійних рівнянь: 


М 
п и) чисі (6) 
для і - І, 2,..., М, де Б, є пороговим значенням, заданим зовнішнім джерелом. Коефі- 
цієнт г; - числова константа, яка описує динамічний стан. Стан нейрона розраховує- 
ться розв'язком такого рівняння, як у; - (и). При певному рівні збудження нейронів, 
який описується значеннями їх вихідних сигналів у,, з рекурентною мережею можна 


співставити енергетичну функцію Ляпунова: 


Е- ЗУУпуул У уУЬу, (7) 
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Вона пов'язана з кожним збудженим станом мережі і має тенденцію зменшува- 
тися з часом. Зміна стану кожного нейрона ініціюється зміною енергетичного стану 
всієї мережі у напрямі мінімуму її енергії, аж до його досягнення. Звичайно, існує ба- 
гато локальних мінімумів, кожен з яких являє собою один зі станів системи, який ви- 
значається структурою мережі. У просторі станів локальні енергетичні мінімуми енергії 
подані точками стабільності, які називаються атракторами через тяжіння до них най- 
ближчого оточення. 

Однією з найбільш досліджених рекурентних мереж є мережа Хопфілда. Узагаль- 
нена структура цієї мережі являє собою систему з безпосереднім зворотнім зв'язком 
виходу з входом. Характерною особливістю такої системи є те, що вихідні сигнали 
нейронів є одночасно вхідними сигналами мережі. У класичній системі Хопфілда від- 
сутні зв'язки нейрона з власним виходом, це полегшує процес її налаштування. 

Процес навчання мережі формує зони притягання (кластери) точок рівноваги. Най- 
частіше нейрони мережі Хопфілда мають функцію активації типу 5іспит зі значення- 
ми -1. Це означає, що вихідний сигнал і-го нейрона визначається функцією 


М 
уг У 8ви( У му З Бу, (8) 


/а0 
де М - кількість нейронів; уу; - матриця синоптичних зв'язків, ф; - коефіцієнти векто- 
ра зсуву. 

Механізм модифікації синаптичних зв'язків запропонований математичною мо- 
деллю Хебба. Для опису правила Хебба у математичних термінах розглянемо синап- 
тичний зв'язок нейрона К з передсинаптичним та післясинаптичним сигналами х; та 
ук Зміну величини синаптичного зв'язку у момент часу п можна записати у вигляді: 


Ду/у(п) 2 Е(укп), ху(п), (9) 
де Е( ) - певна функція, яка залежить від передсинаптичних та післясинаптичних сиг- 


налів. 
Ця формула може бути записана у наступній формі: 


Думу(п) 2 1 Укп) ху), (10) 
де п - додатня константа, яка визначає швидкість навчання. 

Для навчання без учителя можна використати правило конкурентного навчан- 
ня. Наприклад, можна використати нейронну мережу, яка складається з двох шарів - 
вхідного та вихідного. Вхідний шар отримує доступні дані. Вихідний складається з 
нейронів, які конкурують між собою за право відклику на ознаки, які містяться у вхід- 
них даних. У найпростішому випадку нейронна мережа працює за принципом «пере- 
можець отримує все». При такій стратегії нейрон з найбільшим сумарним вхідним 
сигналом «перемагає» у змаганні 1 переходить в активний стан, при цьому всі інші ней- 
рони відключаються. 

Для проведення кластеризації можна використовувати функції, які побудовані 
на основі алгоритмів самоорганізованого навчання. Метою цих алгоритмів є виявлен- 
ня у множині вхідних даних суттєвих ознак об'єктів. Для цього алгоритм реалізує 
правила локальної природи, що дозволяє проводити навчання обчислення відображе- 
ного вхідного сигналу на вихідний з потрібними властивостями. Під терміном «локаль- 
ний» розуміють заміну синаптичних ваг тільки безпосередніми сусідами цього нейрона. 
Моделі мереж, які навчаються на основі принципів самоорганізації, відображають 
властивості нейробіологічних структур. Архітектура самоорганізованих систем може 
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приймати багато різних форм. Процес навчання полягає у періодичній зміні синаптич- 
них ваг всіх зв'язків у системі у відповідь на подачу вхідних зразків у відповідності з 
призначеними правилами для отримання відповідної конфігурації системи. 

Алгоритм, відповідальний за формування самоорганізуючих карт, починається 
з ініціалізації синаптичних ваг мережі. Звичайно це відбувається із призначенням си- 
наптичним вагам малих значень, які сформовані генератором випадкових чисел. При 
такому формуванні карта ознак початково не має якого-небудь порядку ознак. Після ко- 
ректної ініціалізації мережі для формування карти самоорганізації запускаються три 
наступні основні процеси: 

- конкуренція (сотрешіоп) - для кожного вхідного зразка нейрони мережі обчис- 
люють відносні значення дискримінантної функції, ця функція є основою конкурен- 
ції серед нейронів; 

- кооперація (соорегайоп) - нейрон, який переміг, визначає простір положення топо- 
логічного околу нейронів, який забезпечує базис для кооперації між цими нейронами; 
- синаптична адаптація (5упаріїс аЧаріайоп) - цей механізм дозволяє збудженим ней- 
ронам збільшувати власні значення дискримінантних функцій по відношенню до вхід- 
них образів за допомогою відповідних коректувань синаптичних ваг, зміна проводиться 
таким чином, щоб відклик нейрона-переможця на наступні аналогічніні приклади по- 
силювався. 

Математична модель процесу конкуренції наступна. Нехай т - розмірність 
вхідного простору, а вхідний вектор вибирається з цього вхідного простору випадко- 
во 1 позначається як: 

ХР Кові о 

Вектор синаптичних ваг кожного з нейронів мережі має таку саму розмірність, 

що і вхідний простір. Позначимо синаптичну вагу нейрона /: 


Ме | мур, Під номііт По З 1,2, но, 


де / - загальна кількість нейронів мережі, Для того щоб підібрати найкращий вектор Й/), 
який відповідає вхідному вектору Х, необхідно порівняти скалярні добутки ИЙ х Х 
для | - 1,2....Г1 вибрати найбільше значення. Таким чином, вибравши нейрон з найбіль- 
шим скалярним добутком, ми в результаті визначаємо місцезнаходження, яке повинне 
стати центром топологічного околу збужденого нейрона. 

Для проведення операції кооперації необхідно визначити окіл збудженого нейро- 
на. Типовим прикладом обчислення цієї відстані є функція Гаусса: 


Піо 7 ехр(- Фа! (207), ат) 
де а) - латеральна віддаль (аїега! дізіапсе) між нейроном-переможцем (ї) та вторин- 
но збужденим нейроном (/); с - параметр, який визначає рівень, до якого нейрони з 
топологічного околу нейрона-переможця приймають участь у процесі навчання. 

Для того щоб мережа могла самоорганізовуватися, вектор синаптичних ваг нейро- 
на повинен змінюватися у відповідності до вхідного вектора. Основна проблема по- 
лягає у тому, як зміна повинна проходити. Враховуючи правило Хебба про те, що 
синаптична вага повинна підсилюватися при одночасному виникненні предсинаптич- 
ної ії постсинаптичної активності та складової забування (Богеейіпє їегт), зміна синап- 
тичних ваг має вигляд: 


Ди) З пп) Аріод(п) (х -- му(п), (12) 
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де 7 - параметр швидкості навчання (І еагпіпе-гаїе рагатеїег) алгоритму. Цей вираз 
викристовується для всіх нейронів решітки, які лежать у топологичному околі ней- 
рона-переможця. Він має ефект переміщення вектора синаптичних ваг нейрона-пере- 
можця у бік вхідного вектора. 


Висновки 


У роботі досліджено методику кластеризації реляційних баз даних на основі функ- 
ціонального програмування. 

У ролі засобів функціонального програмування запропоновано функції на основі 
рекурентних нейронних мереж та самоорганізаційних карт Коханена. 
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Олег Кличук 

Особенности интеллектуальньгх методов кластеризации в релятивньх базах данньтх 

В статье исследована методика проведения кластерного анализа в реляционньх базах данньх с 
использованиєм функционального программирования. Описаньгю функции на основе реккурентньх 
нейронньхх сетей и самоорганизующихся карт Коханена для проведения кластерного анализа. 
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